3D object detection with surround-view images is an essential task for autonomous driving. In this work, we propose DETR4D, a Transformer-based framework that explores sparse attention and direct feature query for 3D object detection in multi-view images. We design a novel projective cross-attention mechanism for query-image interaction to address the limitations of existing methods in terms of geometric cue exploitation and information loss for cross-view objects. In addition, we introduce a heatmap generation technique that bridges 3D and 2D spaces efficiently via query initialization. Furthermore, unlike the common practice of fusing intermediate spatial features for temporal aggregation, we provide a new perspective by introducing a novel hybrid approach that performs cross-frame fusion over past object queries and image features, enabling efficient and robust modeling of temporal information. Extensive experiments on the nuScenes dataset demonstrate the effectiveness and efficiency of the proposed DETR4D.
translated by 谷歌翻译
在阻碍强化学习(RL)到现实世界中的问题的原因之一,两个因素至关重要:与培训相比,数据有限和测试环境的不匹配。在本文中,我们试图通过分配强大的离线RL的问题同时解决这些问题。特别是,我们学习了一个从源环境中获得的历史数据,并优化了RL代理,并在扰动的环境中表现良好。此外,我们考虑将算法应用于大规模问题的线性函数近似。我们证明我们的算法可以实现$ O(1/\ sqrt {k})$的次级临时性,具体取决于线性函数尺寸$ d $,这似乎是在此设置中使用样品复杂性保证的第一个结果。进行了不同的实验以证明我们的理论发现,显示了我们算法与非持bust算法的优越性。
translated by 谷歌翻译
随着LIDAR传感器在自动驾驶中的流行率,3D对象跟踪受到了越来越多的关注。在点云序列中,3D对象跟踪旨在预测给定对象模板中连续帧中对象的位置和方向。在变压器成功的驱动下,我们提出了点跟踪变压器(PTTR),它有效地预测了高质量的3D跟踪,借助变压器操作,以粗到1的方式导致。 PTTR由三个新型设计组成。 1)我们设计的关系意识采样代替随机抽样,以在亚采样过程中保留与给定模板相关的点。 2)我们提出了一个点关系变压器,以进行有效的特征聚合和模板和搜索区域之间的特征匹配。 3)基于粗糙跟踪结果,我们采用了一个新颖的预测改进模块,通过局部特征池获得最终的完善预测。此外,以捕获对象运动的鸟眼视图(BEV)的有利特性(BEV)的良好属性,我们进一步设计了一个名为PTTR ++的更高级的框架,该框架既包含了点的视图和BEV表示)产生高质量跟踪结果的影响。 PTTR ++实质上提高了PTTR顶部的跟踪性能,并具有低计算开销。多个数据集的广泛实验表明,我们提出的方法达到了卓越的3D跟踪准确性和效率。
translated by 谷歌翻译
使用点云的3D对象检测由于其在自动驾驶和机器人技术中的广泛应用而引起了越来越多的关注。但是,大多数现有的研究都集中在单点云框架上,而无需利用点云序列中的时间信息。在本文中,我们设计了Transpillars,这是一种基于变压器的新型特征聚合技术,可利用连续点云框架的时间特征用于多帧3D对象检测。从两个角度来看,转子汇总的时空点云特征。首先,它直接从多帧特征映射而不是汇总实例功能融合体素级特征,以保存实例详细信息,并使用上下文信息,这些信息对于准确的对象本地化至关重要。其次,它引入了分层的粗到精细策略,以逐步融合多尺度功能,以有效捕获移动对象的运动并指导精美特征的聚合。此外,引入了一系列可变形变压器,以提高跨帧功能匹配的有效性。广泛的实验表明,与现有的多帧检测方法相比,我们提议的转质质量可以达到最先进的性能。代码将发布。
translated by 谷歌翻译
在受监督和无监督的设置的基于学习的多视图立体声(MV)中,已经看到了重大进展。为了结合其在准确性和完整性方面的优点,同时减少了对昂贵标签数据的需求,本文探讨了一种新型的基于学习的MVS问题的新型半监督设置,该设置只有MVS数据的一小部分与密集的深度地面真相相连。但是,由于方案和视图中灵活的设置的巨大变化,半监督的MVS问题(半MV)可能会破坏经典的半监督学习中的基本假设,该假设未标记的数据和标记的数据共享相同的标签空间和数据分布。为了解决这些问题,我们提出了一个新颖的半监督MVS框架,即SE-MVS。对于基本假设在MVS数据中起作用的简单情况,一致性正则化鼓励模型预测在原始样本和随机增强样品之间通过KL差异的限制保持一致。对于MVS数据中基本假设有冲突的进一步麻烦案例,我们提出了一种新型的样式一致性损失,以减轻分布差距引起的负面影响。未标记的样品的视觉样式被转移到标记的样品中以缩小差距,并且在原始标记的样品中使用标签进一步监督了生成样品的模型预测。 DTU,BlendenDMV,GTA-SFM和Tanks \&Temples数据集的实验结果显示了该方法的出色性能。在骨干网络中使用相同的设置,我们提出的SE-MV优于其完全监督和无监督的基线。
translated by 谷歌翻译
Zigzag flattening (ZF) is commonly utilized as a default option to get the image patches ordering in deep models, e.g. vision transformers (ViTs). Notably, when decomposing multi-scale images, ZF could not maintain the invariance of feature point positions.To this end, we investigate the Hilbert flattening (HF) as an alternative for sequence ordering in vision tasks. HF has proven to be superior to other flatten approaches in maintaining spatial locality, when performing multi-scale transformations of dimensional space. In applications, we design a position encoding method based on HF, beating absolute position encoding non-trivially in Transformer architecture. It also can be used to feature down-sampling and feature/image interpolation. Extensive experiments demonstrate that it can yield consistent performance boosts for several popular architectures and applications. The code will be released upon acceptance.
translated by 谷歌翻译
在点云序列中,3D对象跟踪目的是在给定模板点云的情况下预测当前搜索点云中的对象的位置和方向。通过变压器的成功,我们提出了点跟踪变压器(PTTR),其有效地在变压器操作的帮助下以粗良好的方式预测高质量的3D跟踪结果。 PTTR由三种新颖的设计组成。 1)除了随机抽样中,我们设计关系感知采样,以保护在子采样期间给定模板的相关点。 2)此外,我们提出了一种由自我关注和跨关注模块组成的点关系变压器(PRT)。全局自我关注操作捕获远程依赖性,以便分别增强搜索区域和模板的编码点特征。随后,我们通过横向关注匹配两组点特征来生成粗略跟踪结果。 3)基于粗略跟踪结果,我们采用了一种新颖的预测细化模块来获得最终精制预测。此外,我们根据Waymo Open DataSet创建一个大型点云单个对象跟踪基准。广泛的实验表明,PTTR以准确性和效率达到优越的点云跟踪。
translated by 谷歌翻译
基于随机差分方程(SDE)的挥发性可再生能源(RESS)的随机过程模型共同捕获了连续时间的不断变化的概率分布和时间相关性。它已经使最近的研究能够显着提高动力系统动态不确定性量化和优化的性能。然而,考虑到PV的非同质随机过程性质,仍然存在一个具有挑战性的问题:如何获得用于光伏电源的现实和准确的SDE模型,以反映其在线操作中的天气不确定性,特别是在高分辨率数值时天气预报(NWP)对于许多分布式工厂不可用?为了填补这个差距,本文发现,只有使用来自低分辨率公共天气报告的廉价数据,可以构建精确的PV电源SDE模型。具体地,构建每小时参数化的Jacobi扩散过程以在一天内重新创建PV挥发性的时间模式。它的参数使用极端学习机(ELM)的集合来映射到公共天气报告,以反映不同的天气状况。 SDE模型共同捕捉盘流道和陷阱。基于澳门收集的现实数据的统计检验表明,所提出的方法优于一系列最先进的深度学习的时间系列预测方法。
translated by 谷歌翻译
视觉变形金刚(VITS)是卷积神经网络(CNNS)的替代设计范式。然而,Vits的训练比CNN更难,因为它对训练参数敏感,例如学习率,优化器和预热时期。训练难度的原因在〜\ Cite {Xiao2021early}和作者猜测中,这个问题涉及vit模型的\ texit {patchify-step},并提出早期卷积帮助变压器更好地看到。在本文中,我们进一步调查了这个问题并扩展了上述结论:只有早期卷积没有帮助稳定培训,但\ yringit {卷积杆}(\ texit {conv-step})的缩放Relu操作。理论上和凭经验,我们验证了缩放的relu,\ texit {conv-step}不仅提高了训练稳定,而且增加了补丁令牌的多样性,从而通过增加一些参数和拖鞋来提高具有大边距的峰值性能。此外,进行了广泛的实验,以证明之前的vits远非培训,进一步表明Vits具有更大的CNN替代品。
translated by 谷歌翻译
将对象检测和ID嵌入提取到统一网络的单次多对象跟踪,近年来取得了开创性的结果。然而,目前的单次追踪器仅依赖于单帧检测来预测候选界限盒,当面对灾难性的视觉下降时,例如运动模糊,闭塞时可能是不可靠的。一旦检测器错误地被错误地归类为背景,将不再维护其相应的ROCKLET的时间一致性。在本文中,我们首先通过提出重新检查网络恢复被错误分类为“假背景”的边界框。重新检查网络创新地扩展了ID从数据关联嵌入ID的角色,以通过有效地将先前的轨迹传播到具有小开销的当前帧的运动预测。请注意,传播结果由独立和有效的嵌入搜索产生,防止模型过度依赖于检测结果。最终,它有助于重新加载“假背景”并修复破碎的Tracklet。在强大的基线Cstrack上建立一个新的单次追踪器,分别通过70.7 $ 76.4,70.6 $ \右前场达到76.3美元的MOT17和MOT17。它还达到了新的最先进的Mota和IDF1性能。代码在https://github.com/judasdie/sots发布。
translated by 谷歌翻译